python2 中的urlparse
模块已经整合进了python3 中的 urllib.parse
模块
这里使用的python2 进行模块学习
urlparse模块简介
urlparse模块主要是把url拆分为6部分,并返回元组。并且可以把拆分后的部分再组成一个url。主要有函数有urljoin、urlsplit、urlunsplit、urlparse等。
- urlparse.urlparse
将url分为6个部分,返回一个包含6个字符串项目的元组:协议、位置、路径、参数、查询、片段。
其中scheme
是协议
netloc
是域名服务器
path
是相对路径
params
是参数
query
是查询的条件
fragment
是拆分文档中的特殊片段
urlparse.urlsplit
和urlparse差不多,将url分为5部分,返回一个包含5个字符串项目的元组:协议、位置、路径、查询、片段。urlparse.urljoin
将相对的地址组合成一个url,对于输入没有限制,开头必须是http://,否则将不组合前面。urljoin主要是拼接URL,它以base作为其基地址,然后与url中的相对地址相结合组成一个绝对URL地址。函数 urljoin 在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。需要注意的是,如果基地址并非以字符/结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。
参考链接:
https://www.cnblogs.com/cemaster/p/6435711.html
https://www.cnblogs.com/xie-kun/p/7858358.html